Loading...
机构名称:
¥ 1.0

模仿世界模型推断中的实际相互作用轨迹已被证明可以提高基于模型的强化学习(MBRL)算法的样本效率。许多方法直接使用已知状态序列进行推理。但是,这种方法无法通过捕获状态之间的细微差异来提高推理的质量。很像人类如何从这种差异中推断出事件发展的趋势,在这项工作中,我们引入了基于AMBA的世界模型(GLAM),从而通过感知和预测国家之间的变化来提高推理质量。GLAM包括两个基于MAMBA的平行推理模块Gmamba和Lmamba,它们分别着重于在推理过程中从全球和Local观点感知差异。gmamba专注于识别输入序列中状态之间的变化模式,并利用这些模式来增强未来状态变化的预测。lmamba强调通过感知相邻状态的差异,强调有关未知信息的推理,例如奖励,终止信号和视觉表示。通过整合两个模块的优势,魅力四射是环境变化的较高价值变化,从而为代理提供了更有效的基于想象力的训练。我们认为,我们的方法在Atari 100k基准上的非恶意人类得分中的现有方法优于现有方法。

arxiv:2501.11949v1 [cs.lg] 2025年1月21日

arxiv:2501.11949v1 [cs.lg] 2025年1月21日PDF文件第1页

arxiv:2501.11949v1 [cs.lg] 2025年1月21日PDF文件第2页

arxiv:2501.11949v1 [cs.lg] 2025年1月21日PDF文件第3页

arxiv:2501.11949v1 [cs.lg] 2025年1月21日PDF文件第4页

arxiv:2501.11949v1 [cs.lg] 2025年1月21日PDF文件第5页

相关文件推荐